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VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Decision Tree 模型 。Decision Tree 算法 的 核心 是 通过 递归 的 方 
式 ， 将 数据 集 不 断 进行 切割 ， 得 到 子 分 文 ， 最 终 形成 数 的 结构 。C&RT 算 法 是 决策 树 

比较 简单 和 常用 的 一 种 算法 ， 其 切割 的 标准 是 根据 纯度 来 进行 ， 每 次 切割 都 是 为 了 让 
分 支 内 部 纯度 最 大 。 最 终 ， 决 策 树 不 同 的 分 支 得 到 不 同 的 gi (x)( 即 树 的 叶子 ，C&RT 
算法 中 ，gi (x) 是 常数 ) 。 本 节 课 将 介绍 随机 森林 (Random Forest) 算法 ， 它 是 我 们 
之 前 介绍 的 Bagging 和 上 节 课 介绍 的 Decision Tree 的 结合 。 


Random Forest Algorithm 


首先 我 们 来 复习 一 下 之 前 介绍 过 的 两 个 机 器 学 习 模 型 : Bagging 和 Decision Tree。 
Bagging 是 通过 bootstrap 的 方式 ， 从 原始 的 数据 集 D 中 得 到 新 的 妃 ; 然后 再 使 用 一 些 
base algorithm 对 每 个 万 都 得 到 相应 的 9; ;最 后 将 所 有 的 gt 通过 投票 uniform 的 形式 组 
合成 一 个 G，G 即 为 我 们 最 终 得 到 的 模型 。Decision Tree 是 通过 递归 形式 ， 利 用 分 支 
条 件 ， 将 原始 数据 集 D 切 割 成 一 个 个 子 树 结构 ， 长 成 一 棵 完整 的 树 形 结构 。Decision 
Tree 最 终 得 到 的 G(x) 是 由 相应 的 分 支 条 件 b(x) 和 分 支 树 Ge(z) 递 归 组 成 。 


Bagging 





function Bag(D, A) function DTree(D) 
a) ee we Sn if termination return base gt 
e ЛИ ^ else 
@ request Kg is data Dr oy © learn b(x) and split D to 
DONA FOpp d with D я D, by b(X) 
Ө obtain base о; by A(D;) 


Ө build С, + DTree(D-) 
return С = Uniform({g;}) O return G(x) = 


» [b(x) = c] Ge(x) 


—reduces variance —large variance 
by voting/averaging especially if fully-grown 


Bagging 和 Decison Tree 算 法 各 自 有 一 个 很 重要 的 特点 。Bagging 具 有 减少 不 同 gi 的 方 


差 variance 的 特点 。 这 是 因为 Bagging 采 用 投票 的 形式 ， 将 所 有 giuniform 结 合 起 来 ， 
起 到 了 求 平均 的 作用 ， 从 而 降低 variance。 而 Decision Tree 具 有 增 大 不 同 gi 的 方差 
variance 的 特点 。 这 是 因为 Decision Tree 每 次 切割 的 方式 不 同 ， 而 且 分 支 包 含 的 样本 
数 在 逐渐 减少 ， 所 以 它 对 不 同 的 资料 D 会 比较 敏感 一 些 ， 从 而 不 同 的 D 会 得 到 比较 大 的 
variance。 

所 以 说 ，Bagging 能 减 小 variance， 而 Decision Tree 能 增 大 variance。 如 果 把 两 者 结合 
起 来 ， 能 否 发 挥 各 自 的 优势 ， 起 到 优势 互补 的 作用 呢 ? 这 就 是 我 们 接 下 来 将 要 讨论 的 
aggregation of aggregation， 即 使 用 Bagging 的 方式 把 众多 的 Decision Tree 进 行 
uniform 结 合 起 来 。 这 种 算法 就 叫做 随机 森林 (Random Forest) ， 它 将 完全 长 成 的 
C&RT 决 策 树 通过 bagging 的 形式 结合 起 来 ， 最 终 得 到 一 个 庞大 的 决策 模型 。 


random forest (RF) = bagging + fully-grown C&RT decision tree 


Random Forest 算 法 流程 图 如 下 所 示 : 


function RandomForest(D) function DTree(D) 
PELLE. E if termination return base g; 
ize- A else 
© request size-N data Di by © learn bik) and split D to 


bootstrapping with D 
Ө obtain tree g: by DTree(D;) 
return С = Uniform({g;}) 


De by b(x) 
Ө build С, + DTree(7»;) 
© return G(x) = 


x [b(x) = c] Ge(x) 





Random Forest 算 法 的 优点 主要 有 三 个 。 第 一 ， 不 同 决策 树 可 以 由 不 同 主机 并 行 训 练 
生成 ， 效 率 很 高 ; 第 二 ， 随 机 森林 算法 继承 了 C&RT 的 优点 ; 第 三 ， 将 所 有 的 决策 树 
通过 bagging 的 形式 结合 起 来 ， 避 免 了 单个 决策 树 造成 过 拟 合 的 问题 。 


* highly parallel/efficient to learn 
• inherit pros of C&RT 
* eliminate cons of fully-grown tree 


以 上 是 基本 的 Random Forest 算 法 ， 我 们 再 来 看 一 下 如 何 让 Random Forest 中 决策 树 


的 结构 更 有 多 样 性 。Bagging 中 ， 通 过 bootstrap 的 方法 得 到 不 同 于 D 的 D'， 使 用 这 些 随 
机 抽取 的 资料 得 到 不 同 的 g:。 除 了 随机 抽取 资料 获得 不 同 gi 的 方式 之 外 ， 还 有 另外 一 
种 方法 ， 就 是 随机 抽取 一 部 分 特征 。 例 如 ， 原 来 有 100 个 特征 ， 现 在 只 从 中 随机 选取 
30 个 来 构成 决策 树 ， 那 么 每 一 轮 得 到 的 树 都 由 不 同 的 30 个 特征 构成 ， 每 棵 树 都 不 一 
样 。 假 设 原 来 样本 维度 是 d， 则 只 选择 其 中 的 ds (d' 小 于 d) 个 维度 来 建立 决策 树 结 
构 。 这 类 似 是 一 种 从 d 维 到 d' 维 的 特征 转换 ， 相 当 于 是 从 高 维 到 低 维 的 投影 ， 也 就 是 说 
d' 维 z 空 间 其 实 就 是 d 维 x 空间 的 一 个 随机 子 空间 (subspace) 。 通 常情 ; 况 下 ，d' 远 小 于 
d， 从 而 保证 算法 更 有 效率 。Random Forest 算 法 的 作者 建议 在 构建 C&RT 每 个 分 支 
b(x) 的 时 候 ， 都 可 以 重新 选择 子 特征 来 训练 ， 从 而 得 到 更 具有 多 样 性 的 决策 树 。 


another possibility for diversity: 


randomly sample a’ features from x 


e when sampling index h, ia, ... , ign? Ф(х) = (Ki, , Xi. < <<: Xiy) 


• 2 € R”: a random subspace of ¥ є RI 


• often d' < d, efficient for large d 
—can be generally applied on other models 


• original RF re-sample new subspace for each b(x) in C&RT 


所 以 说 ， 这 种 增强 的 Random Forest 算 法 增加 了 random-subspace。 


RF = bagging + random-subspace C&RT 


上 面 我 们 讲 的 是 随机 抽取 特征 ， 除 此 之 外 ， 还 可 以 将 现 有 的 特征 x， 通 过 数组 p 进 行 线 
性 组 合 ， 来 保持 多 样 性 : 

ф: (2) = рї x 
这 种 方法 使 每 次 分 支 得 到 的 不 再 是 单一 的 子 特征 集合 ， 而 是 子 特征 的 线性 组 合 (权重 
不 为 1) 。 好 比 在 二 维 平 面 上 不 止 得 到 水 平 线 和 垂直 线 ， 也 能 得 到 各 种 斜 线 。 这 种 做 法 
使 子 特征 选择 更 加 多 样 性 。 值 得 注意 的 是 ， 不 同 分 支 下 的 zx; 是 不 同 的 ， 而 且 向 量 p; 中 
大 部 分 元 素 为 零 ， 因 为 我 们 选择 的 只 是 一 部 分 特征 ， 这 是 一 种 低 维 映射 。 


more powerful features for diversity: row / other than natural basis 
* projection (combination) with random row p; of P: ó;(X) = p/ X 
e often consider low-dimensional projection: 
only d” non-zero components in p; 


e includes random subspace as special case: 
d" — 1 and p; e natural basis 


e original RF consider d' random low-dimensional projections for 
each b(x) in C&RT 


所 以 ， 这 里 的 Random Forest 算 法 又 有 增强 ， 由 原来 的 random-subspace 变 成 了 
random-combination。 顺 便 提 一 下 ， 这 里 的 random-combination 类 似 于 perceptron 模 
型 


RF = bagging + random-combination C&RT 
一 randomness everywherel 


Out-Of-Bag Estimate 


上 一 部 分 我 们 已 经 介绍 了 Random Forest 算 法 ， 而 Random Forest 算 法 重要 的 一 点 就 
是 Bagging。 接 下 来 将 继续 探讨 bagging 中 的 bootstrap 机 制 到 底蕴 含 了 哪些 可 以 为 我 们 
所 用 的 东西 。 


通过 bootstrap 得 到 新 的 样本 集 D'， 再 由 D 训 练 不 同 的 % 。 我 们 知道 D 中 包含 了 原样 本 
集 D 中 的 一 些 样本 ,但 也 有 些 样本 没有 涵盖 进去 。 如 下 表 所 示 ， 不 同 的 gt 下， 红色 的 
表示 在 DD; 中 没有 这 些 样本 。 例 如 对 gi 来 说 ，(x2, y2) 和 (x3, Ya) 没有 包含 进去 ， 对 g> 
来 说 ，(z1, Yi) 和 (x2, yo ) 没 有 包含 进去 ， 等 等 。 每 个 % 中 ， 红 色 表 示 的 样本 被 称 为 
out-of-bag(OOB) example, 


Кы => [Еф үй =й 
Cy) || Pi | 1281] | Pr 
Gyo) | * | * | Pa| | Dr | 


sys) || + | Daj» | | Dr | 
ТЕС [БЕ ШШШ ЕЕЕ ыш а 
(хм. yn) || Pı | Dot * | |>] 





首先 ， 我 们 来 计算 OOB 样 本 到 底 有 多 少 。 假 设 bootstrap 的 数量 N'=N， 那 么 某 个 样本 


(En, Yn) 是 OOB 的 概率 是 

(ia Waa л НИШЕ. 

Gal Kaji” < 

其 中 ，e 是 自然 对 数 ，N 是 原样 本 集 的 数量 。 由 上 述 推导 可 得 ， 每 个 %y 中 ，OOB 数 目 大 
Ке N， 即 大 约 有 三 分 之 一 的 样本 没有 在 bootstrap 中 被 抽 到 |。 


然后 ， 我 们 将 OOB 与 之 前 介绍 的 Validation 进 行 对 比 : 


OOB Validation 

—— 92. $ £g. 

CACARE 
Гра [Da | | Da | 












(ии) Pa| * Dl | Dr | 
| (xeye) I| + | x | Pa| | Dr | 
LO.) | + | Do] | [Dr | 
pose аде (J завад ET 
(хм ум) |] Di | * | 5| | * | 


一 一 一 一 | 一 
ELT ERE 





{Validation kig P, HEA Dtrain ISI Om, MEDo 用 来 验证 各 自 
的 gm。Dirain 与 Dval 没 有 交集 ， 一般 Dirain 是 Dval 的 数 售 关系 。 再 看 左边 的 OOB 表 
格 ， 之 前 我 们 也 介绍 过 ， 蓝 色 的 部 分 用 来 得 到 不 同 的 gq: ， 而 红色 的 部 分 是 OOB 样 本 。 
而 我 们 刚刚 也 推导 过 ， 红 色 部 分 大 约 占 N 的 二 。 通 过 两 个 表格 的 比较 ， 我 们 发 现 OOB 
样本 类 似 于 Dal， 那么 是 否 能 使 用 00B 样 本 来 验证 g 的 好 坏 呢 ? 答案 是 肯定 的 。 但 
是 ， 通 常 我 们 并 不 需要 对 单个 % 进行 验证 。 因 为 我 们 更 关心 的 是 由 许多 % 组 合成 的 
G， 即 使 9 表现 不 太 好 ， 只 要 G 表 现 足够 好 就 行 了 。 那 么 问题 就 转化 成 了 如 何 使 用 
OOB 来 验证 G 的 好 坏 。 方 法 是 先 看 每 一 个 样本 (zn, yn ) 是 哪些 gi 的 OOB 资 料 ， 然 后 计 
算 其 在 这 些 g; 上 的 表现 ， 最 后 将 所 有 样本 的 表现 求 平均 即 可 。 例 如 ， 样 本 (zw, ум) 
9g2，93，97 的 OOB， 则 可 以 计算 (zw, yn EG (2) 上 的 表现 为 : 


Gy (x) = average(go, 93, gr) 


这 种 做 法 我 们 并 不 陌生 ， 就 像 是 我 们 之 前 介绍 过 的 Leave-One-Out Cross Validation, 
每 次 只 对 一 个 样本 进行 9 的 验证 一 样 ， 只 不 过 这 里 选择 的 是 每 个 样本 是 哪些 gi 的 
OOB， 然 后 再 分 别 进行 Gh (72) 的 验证 。 每 个 样本 都 当成 验证 资料 一 次 (与 留 一 法 相 
fl) ， 最 后 计算 所 有 样本 的 平均 表现 : 


1 N 
Foob ( zm N 2. err (Yn, С n)) 


五 oo(GI) 估 算 的 就 是 G 的 表现 好 坏 。 我 们 把 五 .op 称 为 bagging 或 者 Random Forest 的 


self-validation, 


这 种 self-validation 相 比 于 validation 来 说 还 有 一 个 优点 就 是 它 不 需要 重复 训练 。 如 下 图 
左边 所 示 ， 人 在 通过 Dai 选择 到 表现 最 好 的 gi, 之 后 ， 还 需要 在 Diroin, 和 Dwval 组 成 的 所 
有 样本 集 D 上 重新 对 该 模型 9 ,训练 一 次 ， 以 得 到 最 终 的 模型 系数 。 但 是 self- 
validation 在 调整 随机 森林 算法 相关 系数 并 得 到 最 小 的 Bop 之 后 ， 就 完成 了 整个 模型 的 
建立 ， 无 需 重新 训练 模型 。 随 机 森林 算法 中 ，self-validation 在 衡量 G 的 表现 上 通常 相 
当 准 确 。 


Previously: by Best Evai RF: by Best Eoop 


gm = Am(D) Gm = RFm (D) 
m = argmin Em m = argmin Em 
1<m<M 1<m<M 


En = Eoop(RFm(D)) 


e use E, for self-validation 
—of RF parameters such 
as а" 


* no re-training needed 


Em = Eval(Am(Dirain)) 





Eoob often accurate in practice | 





Üm* 


Feature Selection 


如 果 样 本 资料 特征 过 多 ， 假 如 有 10000 个 特征 ， 而 我 们 只 想 从 中 选取 300 个 特征 ， 这 时 
候 就 需要 舍弃 部 分 特征 。 通 常 来 说 ， 需 要 移 除 的 特征 分 为 两 类 : 一 类 是 元 余 特征 ， 即 
特征 出 现 重 复 ， 例 如 “年龄 "和 "生日 ”; 另 一 类 是 不 相关 特征 ， 例 如 疾病 预测 的 时 候 引 入 
的 “保险 状况 "。 这 种 从 d 维 特征 到 d' 维 特征 的 subset-transform Ф (2:) #5 Ғеаіиге 
Selection， 最 终 使 用 这 些 d' 维 的 特征 进行 模型 训练 。 


for X = (X1, х,..., Ха), want to remove 
e redundant features: like keeping one of ‘age’ and ‘full birthday’ 
* irrelevant features: like insurance type for cancer prediction 
and only ‘learn’ subset-transform (x) = (x, . Xi, Xi, ) 
with d' < d for g(®(x)) 


特征 选择 的 优点 是 : 


。 提高 效率 ， 特 征 越 少 ， 模 型 越 简单 

。 正则 化 ， 防 止 特征 过 多 出 现 过 拟 合 

。 去 除 无 关 特征 ， 保 留 相关 性 大 的 特征 ， 解 释 性 强 
同时 ， 特 征 选择 的 缺点 是 : 

。 筛选 特征 的 计算 量 较 大 

。 不 同 特征 组 合 ， 也 容易 发 生 过 拟 合 

。 容易 选 到 无 关 特 征 ， 解 释 性 差 


advantages: disadvantages: 
e efficiency: simpler e computation: 
hypothesis and shorter 'combinatorial' optimization 
prediction time in training 
• generalization: ‘feature * overfit: ‘combinatorial’ 
noise' removed selection 
e interpretability e mis-interpretability 


值得 一 提 的 是 ， 在 decision tree 中 ， 我 们 使 用 的 decision stump 切 割 方式 也 是 一 种 


feature selection。 


那么 ， 如 何 对 许多 维特 征 进 行 筛选 呢 ” 我 们 可 以 通过 计算 出 每 个 特征 的 重要 性 (ВАУ 
重 ) ， 然 后 再 根据 重要 性 的 排序 进行 选择 即 可 。 


idea: if possible to calculate 
importance(/) for i = 1,2,...,d 


then can select 4, b,.... iy of top-d' importance 


这 种 方法 在 线性 模型 中 比较 容易 计算 。 因 为 线性 模型 的 score 是 由 每 个 特征 经 过 加 权 求 
和 而 得 到 的 ， 而 加 权 系 数 的 绝对 值 |wi | 正好 代表 了 对 应 特征 x; 的 重要 性 为 多 少 。|wi| 

越 大 ， 表 示 对 应 特征 x; 越 重要 ， 则 该 特征 应 该 被 选择 。w 的 值 可 以 通过 对 已 有 的 数据 

集 (xi, yi ) 建 立 线性 模型 而 得 到 。 


Importance by linear model 


d 
score = WIK = YO wx, 
i=1 
• intuitive estimate: importance(/) = |w;| with some ‘good’ м 
• getting ‘good’ м: learned from data 
e non-linear models? often much harder 


然而 ， 对 于 非 线 性 模型 来 说 ， 因 为 不 同 特征 可 能 是 非 线 性 交叉 在 一 起 的 ， 所 以 计算 每 
个 特征 的 重要 性 就 变 得 比较 复杂 和 困难 。 例 如 ，Random Forest 就 是 一 个 非 线 性 模 
型 ， 接 下 来 ， 我 们 将 讨论 如 何在 RF 下 进行 特征 选择 。 


RF 中 ， 特 征 选择 的 核心 思想 是 random test, random test 的 做 法 是 对 于 某 个 特征 ， 如 
果 用 另外 一 个 随机 值 替代 它 之 后 的 表现 比 之 前 更 差 ， 则 表明 该 特征 比较 重要 ， 所 占 的 
权重 应 该 较 大 ， 不 能 用 一 个 随机 值 蔡 代 。 相 反 ， 如 果 随 机 值 蔡 代 后 的 表现 没有 太 大 差 
别 ， 则 表明 该 特征 不 那么 重要 ， 可 有 可 无 。 所 以 ， 通 过 比较 某 特征 被 随机 值 蔡 代 前 后 
的 表现 ， 就 能 推断 出 该 特征 的 权重 和 重要 性 。 


那么 random test 中 的 随机 值 如 何 选择 呢 ” 通常 有 两 种 方法 : 一 是 使 用 uniform 或 者 
gaussian 抽 取 随 机 值 蔡 换 原 特征 ; 一 是 通过 permutation 的 方式 将 原来 的 所 有 N 个 样本 
的 第 i 个 特征 值 重新 打 乱 分 布 (相当 于 重新 洗 牌 ) 。 比 较 而 言 ， 第 二 种 方法 更 加 科学 ， 
保证 了 特征 替代 值 与 原 特征 的 分 布 是 近似 的 (只 是 重新 洗 牌 而 已 ) 。 这 种 方法 叫做 
permutation test (随机 排序 测试 ) ， 即 在 计算 第 i 个 特征 的 重要 性 的 时 候 ， 将 N 个 样本 
的 第 i 个 特征 重新 洗 牌 ， 然 后 比较 D 和 DY) 表现 的 差异 性 。 如 果 差 异 很 大 ， 则 表明 第 i 个 
特征 是 重要 的 。 


e which random values? 


* uniform, Gaussian, ...: P(x;) changed 
* bootstrap, permutation (of {хә} ,): Р(х) approximately 
remained 


e permutation test: 
importance(/) = performance(D) — performance(D")) 


with DIP) is D with (x4; replaced by permuted (x;;) 4 


知道 了 permutation test 的 原理 后 ， 接 下 来 要 考虑 的 问题 是 如 何 衡量 上 图 中 的 
performance， 即 蔡 换 前 后 的 表现 。 显 然 ， 我 们 前 面 介 绍 过 performance 可 以 用 

Eœ (G) 来 衡量 。 但 是 ， 对 于 N 个 样本 的 第 i 个 特征 值 重新 洗 牌 重 置 的 DW) ， 要 对 它 进 
行 重新 训练 ， 而 且 每 个 特征 都 要 重复 训练 ， 然 后 再 与 原 D 的 表现 进行 比较 ， 过 程 非 常 
繁琐 。 为 了 简化 运算 ，RF 的 作者 提出 了 一 种 方法 ， 就 是 把 permutation 的 操作 从 原来 
的 training 上 移 到 了 OOB validation 上 去 , 记 为 Boop (GU? ) 一 Е (G). 也 就 是 说 ， 
在 训练 的 时 候 仍然 使 用 D， 但 是 在 OOB 验 证 的 时 候 ， 将 所 有 的 OOB 样 本 的 第 i 个 特征 重 
新 洗 牌 ， 验 证 G 的 表现 。 这 种 做 法 大 大 简化 了 计算 复杂 度 ， 在 RF 的 feature selection 中 
应 用 广泛 。 


e performance(D(P)): needs re-training and validation in general 

e ‘escaping’ validation? ООВ in RF 

e original RF solution: importance(/) = Eoob(G) 一 ЕР) (а), 
where ELP) comes from replacing each request of х„ by a 
permuted OOB value 


Random Forest in Action 


最 后 ， 我 们 通过 实际 的 例子 来 看 一 下 RF 的 特点 。 首 先 ， 仍 然 是 一 个 二 元 分 类 的 例子 。 
如 下 图 所 示 ， 左 边 是 一 个 C&RT 树 没有 使 用 bootstrap 得 到 的 模型 分 类 效果 ， 其 中 不 同 
特征 之 间 进 行 了 随机 组 合 ， 所 以 有 斜 线 作为 分 类 线 ; 中 间 是 由 bootstrap (N'=N/2) 后 
生成 的 一 棵 决策 树 组 成 的 随机 森林 ， 图 中 加 粗 的 点 表示 被 bootstrap 选 中 的 点 ; 右边 是 
将 一 棵 决策 树 进行 bagging 后 的 分 类 模型 ， 效 果 与 中 间 图 是 一 样 的 ， 都 是 一 棵 树 。 


Осапт gi (№ = №2) G with first t trees 
with random combination 
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当 t=100， 即 选择 了 100 棵 树 时 ， 中 间 的 模型 是 第 100 棵 决策 树 构 成 的 ， 还 是 只 有 一 棵 


树 ; 右边 的 模型 是 由 100 棵 决策 树 bagging 起 来 的 ， 如 下 图 所 示 : 
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当 t=300 时 : 
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当 t=400 时 : 
Ос&вт 9: (№ = №2) 
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当 t=500 时 : 





G with first t trees 





G with first t trees 
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Ос&вт gi (№ = N/2) G with first t trees 
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gcghT gi (№ = N/2) G with first t trees 
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当 t=800 时 : 
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当 t=1000 时 : 


G with first t trees 


G with first t trees 
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随 着 树木 个 数 的 增加 ， 我 们 发 现 ， 分 界线 越 来 越 光 滑 而 且 得 到 了 large-margin-like 
boundary， 类 似 于 SVM 一 样 的 效果 。 也 就 是 说 ， 树 木 越 多 ， 分 类 器 的 置信 区 间 越 大 。 


sin 函 数 。 当 只 有 一 棵 树 的 时 候 (t=1) ， 下 图 左边 表示 单一 树 组 成 的 RF， 右 边 表示 所 
有 树 bagging 组 合 起 来 构成 的 RF。 因 为 只 有 一 棵 树 ， 所 以 左右 两 边 效果 一 致 。 
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当 t=16 时 : 


9 nw = id G with T t trees 
^ 4 DS 





当 t=21 时 : 


„9 (Л = a G with first t trees 
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可 以 看 到 ， 当 RF 由 21 棵 树 构 成 的 时 候 ， 分 界线 就 比较 平滑 了 ， 而 且 它 的 边界 比 单一 树 
构成 的 RF 要 robust 得 多 ， 更 加 平滑 和 稳定 。 


最 后 ， 基 于 上 面 的 例子 ， 再 让 问题 复杂 一 点 : 在 平面 上 添加 一 些 随机 噪声 。 当 t=1 时 ， 
如 下 图 所 示 : 





当 t=11 时 : 


G with first t trees 
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G with first t trees 
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G with first t trees 





从 上 图 中 ， 我 们 发 现 21 棵 树 的 时 候 ， 随 机 noise 的 影响 基本 上 能 够 修正 和 消除 。 这 种 
bagging 投 票 的 机 制 能 够 保证 较 好 的 降 品 性 ， 从 而 得 到 比较 稳定 的 结果 。 


经 过 以 上 三 个 例子 ， 我 们 发 现 RF 中 ， 树 的 个 数 越 多 ， 模 型 越 稳定 越 能 表现 得 好 。 人 在 实 
际 应 用 中 ， 应 该 尽 可 能 选择 更 多 的 树 。 值 得 一 提 的 是 ，RF 的 表现 同时 也 与 random 
seed 有 关 ， 即 随机 的 初始 值 也 会 影响 RF 的 表现 。 


cons of RF: may need lots of trees if the 
whole random process too unstable 
—should double-check stability of G 
to ensure enough trees 


总 结 : 


本 节 课 主要 介绍 了 Random Forest 算 法 模型 。RF 将 bagging 与 decision tree 结 合 起 来 ， 
通过 把 众多 的 决策 树 组 进行 组 合 ， 构 成 森林 的 形式 ， 利 用 投票 机 制 让 G 表 现 最 佳 ， 分 
类 模型 更 稳定 。 其 中 为 了 让 decision tree 的 随机 性 更 强 一 些 ， 可 以 采用 randomly 
projected subspaces 操 作 ， 即 将 不 同 的 features 线 性 组 合 起 来 ， 从 而 进行 各 式 各 样 的 
切割 。 同 时 ， 我 们 也 介绍 了 可 以 使 用 OOB 样 本 来 进行 self-validation， 然 后 可 以 使 用 
self-validation 来 对 每 个 特征 进行 permutaion test， 得 到 不 同 特征 的 重要 性 ， 从 而 进行 
feature selection。 总 的 来 说 ，RF 算 法 能 够 得 到 比较 平滑 的 边界 ， 稳 定性 强 ， 前 提 是 
有 足够 多 的 树 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技法 》 课 程 


